library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.2 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.2 ✔ tibble 3.2.1
## ✔ lubridate 1.9.2 ✔ tidyr 1.3.0
## ✔ purrr 1.0.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(tidyr)
library(dplyr)
library(ggplot2)
library(readxl)
library(magrittr)
##
## Attaching package: 'magrittr'
##
## The following object is masked from 'package:purrr':
##
## set_names
##
## The following object is masked from 'package:tidyr':
##
## extract
#_______________________________________________________ Efeito do tamanho da turma no desempenho escolar__________________________________________________ O objetivo principal do estudo é verificar o que acontece com o desempenho dos alunos se o tamanho da turma for reduzido. Com base nesses resultados, recomendações serão fornecidas para que políticas públicas sejam adotadas.
#Importação do banco de dados
getwd()
## [1] "/Users/laramariaherreradrugowick/Desktop/MetodologiaCient/Listas/ME415/P2"
eua.escolas <- read_xlsx("dados.xlsx")
View(eua.escolas)
head(eua.escolas)
Podemos pensar, inicialmente, que somente o tamanho da turma será a nossa variável independente (fator) e nossa variável resposta será o desempenho escolar. Pela descrição fornecida pelo pesquisadore, e olhando o banco de dados, vemos que a variável “tamanho de turma” está sendo representada por “str”, que é o número de estudantes matriculados pelo número de professores. Ou seja, quanto maior essa razão, maior é o tamanho da turma. Por outro lado, vemos 3 variáveis que representam a variável resposta (desempenho escolar) que são: “read_scr” (que é a nota em leitura), “math_scr” (que é a nota em matemática) e “testscr” (que é a nota média entre leitura e matemática). Nesta análise, uaremos a nota do “testscr” para representar o desempenho dos alunos.
A seguir, uma análise gráfica entre as duas variáveis:
eua.escolas %>% ggplot(aes(x = str, y = testscr)) +
geom_point()+
labs(x= "Tamanho da turma", y = "Desempenho escolar médio", title = "Relação entre tamanho da turma e desempenho escolar") +
theme_bw()
Medidas de resumo:
summary(eua.escolas$str)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.00 18.58 19.72 19.64 20.87 25.80
summary(eua.escolas$testscr)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 605.5 640.0 654.5 654.2 666.7 706.8
Visualmente, vemos que os pontos vão diminuindo em y conforme avançamos em x, o que poderia indicar algum tipo de relação. Isso faz sentido, pois ao diminuirmos o tamanho da turma poderíamos pensar que os alunos receberiam mais atenção dos professores. Com menos alunos na sala também há menos barulho, facilitando a concentração na aula.
Ao executarmos um teste de correlação e um teste de hipótese t-student (H0=correlacao é zero; H1 = correlacao é diferente de zero; alfa = 5%), vemos que a correlação existe, é negativa (ou seja, conforme aumentamos a turma, a média do desempenho diminui), é significativa, ou seja, p-value = 3e-06 (é menor que 5% e portanto rejeitamos H0), porém é uma correlação fraca (-0.22). Isso sugere que talvez outras variáveis do banco precisem ser consideradas na análise do desempenho dos alunos.
cor.test(x = eua.escolas$str, y = eua.escolas$testscr)
##
## Pearson's product-moment correlation
##
## data: eua.escolas$str and eua.escolas$testscr
## t = -4.7513, df = 418, p-value = 2.783e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3152213 -0.1335696
## sample estimates:
## cor
## -0.2263628
Uma característica que poderia impactar o desempnho, além do tamanho da sala de aula, poderia ser o aprendizado de inglês. Em outras palavras, uma região com muitas crianças estrangeiras, que estão aprendendo a língua do país (inglês) podem desempenhar de forma diferente nas provas em relação ao nativos. Podemos então, investigar primeiramente, se há regioes com diferenças nos percentuais de estrangeiros e verificar como é a média nos testes (testscr). Agrupando os dados por county:
en.learn <- eua.escolas %>% select(county, el_pct, testscr, str) %>% group_by(county) %>%
summarise(el_pct = mean(el_pct), testscr = mean(testscr), str = mean(str)) %>% arrange(desc(el_pct))
head(en.learn)
eua.escolas %>% select(county, el_pct, testscr, str) %>% group_by(county) %>%
summarise(el_pct = mean(el_pct), testscr = mean(testscr), str = mean(str)) %>% arrange(testscr)
Plotando esses dados num gráfico:
en.learn %>% ggplot(aes(x = el_pct, y = testscr)) +
geom_point(aes(colour = county))+
labs(x= "Porcentagem de estrangeiros (aprendizes de inglês)", y = "Desempenho escolar médio", title = "Relação entre porcentagem de estrangeiros e desempenho escolar") +
theme_bw()
Visualmente, vemos que quanto maior a porcentagem de aprendizes de
inglês na região (estrangeiros), mais baixo o desempenho escolar. Ao
conduzirmos um teste de correlação e o respectivo teste de hipótese
t-student (H0=correlacao é zero; H1 = correlacao é diferente de zero;
alfa = 5%), vemos que a correlação existe, é negativa (ou seja, conforme
aumentamos a porcentagem de estrangeiros na região, mais baixa a média
do desempenho escolar); é significativa, ou seja, p-value = 1.561e-05 (é
menor que 5% e portanto rejeitamos H0), e já vemos uma correlação
considerável (-0.59). Isso sugere que, isoladamente, essa variável está
mais fortemente correlacionada com o desempenho escolar do que o tamanho
da sala.
cor.test(x = en.learn$el_pct, y = en.learn$testscr)
##
## Pearson's product-moment correlation
##
## data: en.learn$el_pct and en.learn$testscr
## t = -4.8675, df = 43, p-value = 1.561e-05
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.7571018 -0.3666361
## sample estimates:
## cor
## -0.5960256
Podemos também verificar a relação entre a porcentagem de aprendizes de inglês e a quantidade de alunos por sala:
eua.escolas %>% ggplot(aes(x = el_pct, y = str)) +
geom_point()+
labs(x= "Porcentagem de estrangeiros (aprendizes de inglês)", y = "Tamanho da turma", title = "Relação entre porcentagem de estrangeiros e desempenho escolar") +
theme_bw()
cor.test(x = eua.escolas$el_pct, y = eua.escolas$str)
##
## Pearson's product-moment correlation
##
## data: eua.escolas$el_pct and eua.escolas$str
## t = 3.9057, df = 418, p-value = 0.0001095
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.0936374 0.2783312
## sample estimates:
## cor
## 0.1876424
Vemos que também existe uma relação entre porcentagem de estudantes estrangeiros e tamanho de turmas. Visualmente: turmas menores tendem a ter menos estrangeiros. A correlação é positiva (quanto maior a porcentagem de estrangeiros, maiores as turmas), é significativa, ou seja, p-value = 0.0001095 (é menor que 5% e portanto rejeitamos H0), mas essa relação é um pouco mais fraca (0.18), mas existe (não é nula)
Podemos também pensar que a quantidade de computadores disponíveis na escola pode impactar o desempenho dos alunos, no sentido de que quanto mais computadores disponíveis, mais o aprendizado é facilitado, e consequentemente, melhor o desempenho escolar. Consideremos a variável “computador por aluno”(comp_stu) e testscr:
eua.escolas %>% ggplot(aes(x = comp_stu, y = testscr)) +
geom_point()+
labs(x= "Computador/aluno", y = "Desempenho escolar médio", title = "Relação entre computador/aluno e desempenho escolar") +
theme_bw()
eua.escolas %>% ggplot(aes(x = comp_stu, y = testscr)) +
geom_point()+
labs(x= "Computador/aluno *10", y = "Desempenho escolar médio", title = "Relação entre computador/aluno e desempenho escolar") +
theme_bw()
Aparentemente há uma relação entre as variáveis. Vemos que para uma taxa
baixa de pc/aluno o desempenho pode ser bem variado, mas quanto maior a
razão computador/aluno, mais alto tende a ser o desempenho (ou ainda:
não vemos baixos desempenhos quando a relação pc/aluno é alta).
Realizando um teste de correlaçào, vemos que a correlação existe e é
significativa (p<5%). A relacao é negativa (???) e vemos uma
correlação moderada, mostrando que parece se tratar de um fator
importante para ser considerado.
cor.test(x = eua.escolas$comp_stu, y = eua.escolas$testscr)
##
## Pearson's product-moment correlation
##
## data: eua.escolas$comp_stu and eua.escolas$testscr
## t = 5.7492, df = 418, p-value = 1.732e-08
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.1796712 0.3571388
## sample estimates:
## cor
## 0.2707034
cor(x = eua.escolas$comp_stu, y = eua.escolas$testscr)
## [1] 0.2707034
Quando analisamos a relação pc/aluno e tamanho da turma, vemos que turmas maiores estão mais relacionadas a taxas pequenas de pc/aluno. Vemos uma tendencia de relacao entre altas txas de pc/aluno e turmas pequenas, que associado a informacao do grafico acima, INDICAM que o desempenho pode ser melhor com altas txas de pc/aluno e portanto turmas menores.
eua.escolas %>% ggplot(aes(x = comp_stu, y = str)) +
geom_point()+
labs(x= "Computador/aluno", y = "Tamanho da turma", title = "Relação entre computador/aluno e desempenho escolar") +
theme_bw()
A correlacao é negativa (inversamente proporcional) e significativa!
cor.test(x = eua.escolas$comp_stu, y = eua.escolas$str)
##
## Pearson's product-moment correlation
##
## data: eua.escolas$comp_stu and eua.escolas$str
## t = -6.5968, df = 418, p-value = 1.273e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3912603 -0.2177830
## sample estimates:
## cor
## -0.3070702
Se a reduçao do tamanho das turmas se relaciona com melhores desempenhos, assim como mais computadores/aluno, faz sentido pensar que a recomendação seria contratar mais professores para reduzir o tamanho das turmas e disponibilizar mais computadores, principalmente considerando regioes com mais estrangeiros. Porém essas medidas gerarão custos para os pais e para os counties. Dessa forma, precisamos analisar se isso é viável, ou seja, se representaria uma medida eficaz para melhorar o desempenho dos alunos.
Como já imaginávamos, turmas pequenas têm gastos maiores por aluno. Redução de custo está relacionado a turmas grandes.
eua.escolas %>% ggplot(aes(x = str, y = expn_stu)) +
geom_point()+
labs(x= "Tamnho da turma", y = "Gasto/aluno", title = "Relação entre tamanho da turma e gasto/aluno") +
theme_bw()
Podemos pensar também em categorizar a variável tamanho de turma, para verificar como as variáveis tamanho de turma, gastos/aluno e desempenho se relacionam: Vamos considerar turmas pequenas entre 14 a 19; turmas mdias entre 19 e 22 e turmas grandes 22 a 26.
summary(eua.escolas$str)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.00 18.58 19.72 19.64 20.87 25.80
eua.escolas$tamanho <- ifelse(eua.escolas$str < 19, "small", ifelse(eua.escolas$str >= 19 & eua.escolas$str < 22, "medium", "large"))
Grafico: Vemos que turmas pequenas sao as que dão maior gasto, e apesar de encontrarmos desempenhos bem variados em turmas pequenas, vemos que os melhores desempenhos estão contidos nesse grupo.O comportamento entre turmas grandes e médias é parecido em relacao ao desempenho, mesmo as turmas medias gastando mais por aluno. Como dito anteriormente, a reducao da turma talvez nao seja o principal fator a ser considerado para melhorar o desempenho.
eua.escolas %>% ggplot(aes(x = expn_stu, y = testscr)) +
geom_point(aes(color = eua.escolas$tamanho))+
labs(x= "gastos/aluno", y = "Desempenho medio", title = "Relação entre gastos, desempenho e tamanho de turma") +
theme_bw()
## Warning: Use of `eua.escolas$tamanho` is discouraged.
## ℹ Use `tamanho` instead.
Vamos categorizar a variável computadores/ aluno:
summary(eua.escolas$comp_stu)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00000 0.09377 0.12546 0.13593 0.16447 0.42083
eua.escolas$tx_pc <- ifelse(eua.escolas$comp_stu < 0.09377, "taxa_baixa", ifelse(eua.escolas$comp_stu >= 0.09377 & eua.escolas$comp_stu < 0.16447, "taxa_media", "taxa_alta"))
Vemos que, de forma geral, o desempenho ’não parece ser dependente da quantidade de pc/alunos. Há uma “aglomerado” de estudantes com desempenhos muito parecidos, independente de virem de escolas com altas taxas de pc/aluno ou baixa taxas de pc/alunos, independente dos custos por alunos.
eua.escolas %>% ggplot(aes(x = expn_stu, y = testscr)) +
geom_point(aes(color = eua.escolas$tx_pc))+
labs(x= "gastos/aluno", y = "Desempenho medio") +
theme_bw()
## Warning: Use of `eua.escolas$tx_pc` is discouraged.
## ℹ Use `tx_pc` instead.
Vamos veririfcar quais os counties considerados mais bem desenvolvidos e menos desenvolvidos. Vamos considerar a variavel “avginc”, que é a renda média do local.
hist(eua.escolas$avginc)
summary(eua.escolas$avginc)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 5.335 10.639 13.728 15.317 17.629 55.328
quantile(eua.escolas$avginc)
## 0% 25% 50% 75% 100%
## 5.3350 10.6390 13.7278 17.6290 55.3280
Vamos classificar os counties de acordo com os quantis. Counties com renda menores que 10.6390 serão classificados como baixa-renda; counties com renda entre 10.6390 e 17.6290 serão classificados como media-renda e os acima de 17.6290, alta-renda:
eua.escolas$renda <- ifelse(eua.escolas$avginc < 10.6390, "low", ifelse(eua.escolas$avginc >= 10.6390 & eua.escolas$avginc < 17.6290, "medium", "high"))
Plotando desempenho com tamanho de turma e renda local, em locals de locais de alta renda, vemos os melhores desempenhos, independente de tamanho de turma (turmas pequenas medias ou grandes). Também não vemos grandes mudanças entre os desempenhos de alunos de escolas em locais de baixa renda ao considerarmos o tamanho de turma: independentemente do tamanho, continuam com baixo desempenho. Talvez reduzir a turma nao seja o principal fator para melhorar o desempenho como mencionado anteriormente:
eua.escolas %>% ggplot(aes(x = str, y = testscr)) +
geom_point(aes(color = eua.escolas$renda))+
labs(x= "tamanho da turma", y = "Desempenho medio") +
theme_bw()
## Warning: Use of `eua.escolas$renda` is discouraged.
## ℹ Use `renda` instead.
Plotando o desempenho, com % de pc/aluno, por renda, vemos que mesmo com mesmas taxas de pc por aluno entre escolas de diferentes rendas, os alunos de escolas de alta renda desempenham melhor! O que será o diferencial? se não é tamanho de turma, nem pc, o que poderia ser?
eua.escolas %>% ggplot(aes(x = comp_stu, y = testscr)) +
geom_point(aes(color = eua.escolas$renda))+
labs(x= "% de pc/aluno", y = "Desempenho medio", title = "Relação entre % estrangeiros, desempenho e renda") +
theme_bw()
## Warning: Use of `eua.escolas$renda` is discouraged.
## ℹ Use `renda` instead.
Plotando o desempenho, com % de estrangeiros e renda, confirmamos que maior quantidade de estrangeiros estao em locais de media e baixa rendas, e possuem desempenho escolar muito mais baixo. Isso sugere que um investir no ensino de qualidade de ingles nos locais de baixa renda pode contribuir melhor para o desempenho dos alunos do que reduçào do tamanho das turmas ou aumento de computador/aluno.
eua.escolas %>% ggplot(aes(x = el_pct, y = testscr)) +
geom_point(aes(color = eua.escolas$renda))+
labs(x= "% de estrangeiros", y = "Desempenho medio", title = "Relação entre % estrangeiros, desempenho e renda") +
theme_bw()
## Warning: Use of `eua.escolas$renda` is discouraged.
## ℹ Use `renda` instead.
Vamos explorar também como é a porcentagem de alunos de familia de baixa renda nos counties, ou seja, a porcentagem de alunos em programas de assistencia e que se qualificam para lanches a precos reduzidos (variáveis calw_pct e meal_pct respectivamente). Vemos primeiramente que entre escolas de regioes de alta renda, a porcentagem de alunos em programas de assistencia é baixa e nesses locais (praticamente menor que 10%), e o desempenho é alto. Vemos tam’bem que o desempenho é menor em locais de media e baixa renda, e nesses locais os programas de assistencia pública sao mais numerosos.
eua.escolas %>% ggplot(aes(x = calw_pct, y = testscr)) +
geom_point(aes(color = eua.escolas$renda))+
labs(x= "% de alunos em programas de assistencia", y = "desempenho") +
theme_bw()
## Warning: Use of `eua.escolas$renda` is discouraged.
## ℹ Use `renda` instead.
Ao verificarmos a relacao entre % de alunos que se qualificam para
refeicoes com precos reduzidos e desempenho, por regioes de dierentes
rendas, vemos que o desempenho também esta relacionado a % de alunos que
se qualificam para almços com preços reduzidos, o que por sua vez se
relaciona com regioes de média e baixa rendas: quanto mais baixa a
renda, menor o desempenho escolar.
eua.escolas %>% ggplot(aes(x = meal_pct, y = testscr)) +
geom_point(aes(color = eua.escolas$renda))+
labs(x= "% de alunos q se qualificam para almocos com preços reduzidos", y = "desempenho") +
theme_bw()
## Warning: Use of `eua.escolas$renda` is discouraged.
## ℹ Use `renda` instead.
Portanto, a principio, achamos mais adequado o investimento em ensino de inglês, principalmente nas localidades de média e baixa-renda, onde há maior concentração de estrangeiros. Observamos que essa media parece ser mais eficaz do que reduzir o tamanho das turmas ou aumentar a disponibilidade de computadores por aluno.
#####———————————————————————————————————————————————————————– #####———————————————————————————————————————————————————————– #####———————————————————————————————————————————————————————–
O objetivo principal do estudo é verificar o que acontece com o desempenho dos alunos se o tamanho da turma for reduzido. Com base nesses resultados, recomendações serão fornecidas para que políticas públicas sejam adotadas.
Podemos pensar, inicialmente, que somente o tamanho da turma será a nossa variável independente (fator) e nossa variável resposta será o desempenho escolar. Pela descrição fornecida pelo pesquisador, e olhando o banco de dados, vemos que a variável “tamanho de turma” está sendo representada por “str”, que é o número de estudantes matriculados pelo número de professores. Ou seja, quanto maior essa razão, maior é o tamanho da turma. Por outro lado, vemos 3 variáveis que representam a variável resposta (desempenho escolar) que são: “read_scr” (que é a nota em leitura), “math_scr” (que é a nota em matemática) e “testscr” (que é a nota média entre leitura e matemática). Nesta análise, uaremos a nota do “testscr” para representar o desempenho dos alunos.
Seguem algumas medidas descritivas:
descritiva<- function(variaveis){
mean <- mean(variaveis)
sd <- sd(variaveis)
quartis <- quantile(variaveis)
cv <- (mean(variaveis)/sd(variaveis))*100
return(c(media = mean, desvio.padrao = sd, quartis, coef.var = cv))
}
descritiva(eua.escolas$str)
## media desvio.padrao 0% 25% 50%
## 19.640425 1.891812 14.000000 18.582360 19.723208
## 75% 100% coef.var
## 20.871815 25.799999 1038.180721
descritiva(eua.escolas$testscr)
## media desvio.padrao 0% 25% 50%
## 654.15655 19.05335 605.55005 640.04999 654.44998
## 75% 100% coef.var
## 666.66251 706.75000 3433.28931
A seguir, uma análise gráfica entre as duas variáveis:
eua.escolas %>% ggplot(aes(x = str, y = testscr)) +
geom_point()+
labs(x= "Tamanho da turma", y = "Desempenho escolar médio", title = "Relação entre tamanho da turma e desempenho escolar") +
theme_bw()
cor.test(x = eua.escolas$str, y = eua.escolas$testscr)
##
## Pearson's product-moment correlation
##
## data: eua.escolas$str and eua.escolas$testscr
## t = -4.7513, df = 418, p-value = 2.783e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3152213 -0.1335696
## sample estimates:
## cor
## -0.2263628
Vemos que conforme aumenta o tamanho da turma, diminui o desempenho escolar. O valor da correlação na amostra é de -0.23, indicando uma relação negativa (inversamente proporcional) e linearmente fraca entre as duas variáveis.
Mas será que reduzindo o tamanho das turmas fará com que as notas dos alunos melhorem?
Faz sentido considerar que locais de melhor renda conseguem investir em turmas menores, livros novos, recursos computacionais etc…Reduzir o tamanho da turma envolverá custos com a contratação de mais professores. No entanto, não podemos descartar o fato de que alunos de regiões mais ricas tendem a vir de famílias mais abastadas também, e portanto existem muitos outros fatores relacionados às características socio-economicas dos estudantes que precisam ser consideradas. Além disso, a partir do banco de dados fornecido, veririficamos uma característica importante, que poderia impactar o desempenho dos alunos, que é a concentração de estrangeiros nas cidades norte-americanas. Uuma região com muitas crianças estrangeiras, que têm a língua do país (inglês) como SEGUNDA língua, pode desempenhar de forma diferente nas provas em relação à regiões onde predominam-se os nativos. Ademais, imigrantes de um modo geral tendem a viver em regiõs de baixa renda. Então, talvez, essa relação negativa que verificamos inicialmente entre tamanho de sala de aula e desempenho escolar seja consequência de uma soma de outros fatores que não necessariamente o tamnho da turma.
Abaixo, vemos que as turmas com mais estrangeiros são as que desempenham pior, e também são as situadas em locais de mais baixa renda.
eua.escolas$renda <- ifelse(eua.escolas$avginc < 10.6390, "low", ifelse(eua.escolas$avginc >= 10.6390 & eua.escolas$avginc < 17.6290, "medium", "high"))
eua.escolas %>% ggplot(aes(el_pct, y = testscr, fill= renda)) +
geom_point(aes(colour = renda))+
labs(x = "% de estrangeiros", y = "Desempenho") +
theme_bw()
Categoriazando a variável tamanho de turma pela mediana (Mediana ~ 20) da variável “tamanho de turma”
eua.escolas$class.size <- ifelse(eua.escolas$str < 20, "small", "large")
Categorizando as regiões (Counties) em relação a renda: counties com rendas menores que 10.6390 serão classificados como baixa-renda; counties com renda entre 10.6390 e 17.6290 serão classificados como media-renda e os acima de 17.6290, alta-renda:
eua.escolas$renda <- ifelse(eua.escolas$avginc < 10.6390, "low", ifelse(eua.escolas$avginc >= 10.6390 & eua.escolas$avginc < 17.6290, "medium", "high"))
Abaixo, regiões de baixa renda concentram os desempenhos mais baixos (abaixo de 630 pontos) e maior concentração de estrangeiros. Nessa faixa também há mais turmas “grandes” enquanto que na faixa de alta renda, há maior concentração de turmas “pequenas”.
eua.escolas$renda <- factor(eua.escolas$renda, levels = c('low', 'medium', 'high'))
eua.escolas %>% ggplot(aes(x= el_pct, y= testscr)) +
geom_point(aes(colour = class.size)) +
facet_wrap(vars(renda)) +
labs(x= "% estudantes de inglÊs (estrangeiros)", y= "Desempenho") +
theme_bw()
Achando a reta de regressão estimada:
modelo.desempenho <- lm(testscr ~ str, data = eua.escolas)
modelo.desempenho
##
## Call:
## lm(formula = testscr ~ str, data = eua.escolas)
##
## Coefficients:
## (Intercept) str
## 698.93 -2.28
Verificando os estimadores e Std Errors # teste de hipotese teste-t. Aqui também solta teste F, mas não a tabela anova.
summary(modelo.desempenho)
##
## Call:
## lm(formula = testscr ~ str, data = eua.escolas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -47.727 -14.251 0.483 12.822 48.540
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 698.9330 9.4675 73.825 < 2e-16 ***
## str -2.2798 0.4798 -4.751 2.78e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.58 on 418 degrees of freedom
## Multiple R-squared: 0.05124, Adjusted R-squared: 0.04897
## F-statistic: 22.58 on 1 and 418 DF, p-value: 2.783e-06
Com esse modelo simples, observamos que para cada 1 unidade acrescida ao tamanho da turma, a nota diminui em aproximadamente 2,3 pontos. Além disso, vemos que a variável tamanho de turma explica somente 5% da variabilidade ocorrida no desempenho escolar (r^2).
library(GGally)
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
eua.escolas %>% ggpairs(columns = c('testscr', 'calw_pct', 'meal_pct', 'comp_stu', 'expn_stu', 'str', 'avginc', 'el_pct'),
upper = list(continuous = wrap("cor", size = 2)))
Podemos observar que algumas relações são aparentemente lineares com a variável desfecho, outras não. Conforme o gráfico acima e o raciocínio colocado anteriormente, vemos que além do preditor “tamanho da turma”, faz muito sentido incluirmos no modelo a variável “aprendizes de língua inglesa”, referente aos estrangeiros. A sua relação com a variável desempenho é linear e inversamente proporcional (-0.64).
modelo.desempenho2 <- lm(testscr ~ str + el_pct, data = eua.escolas)
modelo.desempenho2
##
## Call:
## lm(formula = testscr ~ str + el_pct, data = eua.escolas)
##
## Coefficients:
## (Intercept) str el_pct
## 686.0322 -1.1013 -0.6498
Observamos que o beta0 = 686.03; beta1 = -1.10 e beta2 = -0.65
summary(modelo.desempenho)
##
## Call:
## lm(formula = testscr ~ str, data = eua.escolas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -47.727 -14.251 0.483 12.822 48.540
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 698.9330 9.4675 73.825 < 2e-16 ***
## str -2.2798 0.4798 -4.751 2.78e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.58 on 418 degrees of freedom
## Multiple R-squared: 0.05124, Adjusted R-squared: 0.04897
## F-statistic: 22.58 on 1 and 418 DF, p-value: 2.783e-06
summary(modelo.desempenho2)
##
## Call:
## lm(formula = testscr ~ str + el_pct, data = eua.escolas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -48.845 -10.240 -0.308 9.815 43.461
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 686.03225 7.41131 92.566 < 2e-16 ***
## str -1.10130 0.38028 -2.896 0.00398 **
## el_pct -0.64978 0.03934 -16.516 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 14.46 on 417 degrees of freedom
## Multiple R-squared: 0.4264, Adjusted R-squared: 0.4237
## F-statistic: 155 on 2 and 417 DF, p-value: < 2.2e-16
Observamos que comparado ao modelo inicial, a magnitude do coeficiente para “tamanho de turma” caiu pela metade aproximadamente (foi de -2.3 para -1.1). Isso aconteceu porque neste novo modelo, a variável “aprendizes da língua iglesa” se manteve constante quando mudamos em 1 unidade o tamanho da turma. Com a inclusão da variável “aprendizes da lingua inglesa”, o modelo passou a explicar mais o que ocorre com a variabilidade do desempenho escolar. Somente com a variável “tamanho de turma”, o modelo explicava 5% da variabilidade do desempenho escolar. Agora, com a variável “aprendizes da lingua inglesa”, o modelo passou a explicar 42%.
Se não tivéssemos incluido no modelo a variável correspondente aos estudantes estrangeiros, poderíamos erroneamente concluir que diminuir o tamanho da turma refletiria em maiores notas. No entanto, melhoras no desempenho são explicadas tanto pela redução do tamanho da turma quanto pela baixa proporção de estrangeiros na escola.
Como vimos, melhores desempenhos estão associados a turmas menores e a menos estrageiros na turma. Se pensarmos na ação de reduzir o tamnho de turma, que está no controle da escola, significaria mais contratação de professores, que por sua vez, implicaria em mais gastos.
Pelo gráfico de dispersão, aparentemente exite uma relação linear entre as variáveis desempeho escolar e despesas por alunos. O coef de correlaçào é de aproximadamente 0.19. Podemos dizer que conforme os gastos por aluno aumentam, aumentam também o desempenho nas provas.
Mas imaginando que os gastos fiquem fixos e que a porcentagem de alunos de ingles (estrangeiros) também se mantenha constante, qual seria o efeito de reduzir o tamanho da turma no desempenho escolar?
eua.escolas %>% ggplot(aes(x = expn_stu, y = testscr)) +
geom_point()+
labs(x= "Gasto por estudante", y = "Desempenho escolar médio")+
theme_bw()
Categorizando a variável gasto por aluno:
descritiva(eua.escolas$expn_stu)
## media desvio.padrao 0% 25% 50%
## 5312.4075 633.9371 3926.0696 4906.1801 5214.5166
## 75% 100% coef.var
## 5601.4014 7711.5068 838.0024
eua.escolas$gasto <- ifelse(eua.escolas$expn_stu < 4906.1801, "despesaBaixa",
ifelse(eua.escolas$expn_stu >= 4906.1801 & eua.escolas$expn_stu < 5601.4014, "despesaRazoável", "despesaAlta"))
#eua.escolas %>% ggplot(aes(x= estrangeiros, y= testscr)) +
#geom_boxplot(aes(colour = class.size)) +
#facet_wrap(vars(gasto)) +
#scale_x_discrete(guide = guide_axis(n.dodge = 2)) +
#labs(x= "% estudantes ingles", y= "Desempenho") +
#theme_bw()
modelo.desempenho3 <- lm(testscr ~ str + el_pct + expn_stu, data = eua.escolas)
modelo.desempenho3
##
## Call:
## lm(formula = testscr ~ str + el_pct + expn_stu, data = eua.escolas)
##
## Coefficients:
## (Intercept) str el_pct expn_stu
## 649.577947 -0.286399 -0.656023 0.003868
summary(modelo.desempenho)
##
## Call:
## lm(formula = testscr ~ str, data = eua.escolas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -47.727 -14.251 0.483 12.822 48.540
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 698.9330 9.4675 73.825 < 2e-16 ***
## str -2.2798 0.4798 -4.751 2.78e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 18.58 on 418 degrees of freedom
## Multiple R-squared: 0.05124, Adjusted R-squared: 0.04897
## F-statistic: 22.58 on 1 and 418 DF, p-value: 2.783e-06
summary(modelo.desempenho2)
##
## Call:
## lm(formula = testscr ~ str + el_pct, data = eua.escolas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -48.845 -10.240 -0.308 9.815 43.461
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 686.03225 7.41131 92.566 < 2e-16 ***
## str -1.10130 0.38028 -2.896 0.00398 **
## el_pct -0.64978 0.03934 -16.516 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 14.46 on 417 degrees of freedom
## Multiple R-squared: 0.4264, Adjusted R-squared: 0.4237
## F-statistic: 155 on 2 and 417 DF, p-value: < 2.2e-16
summary(modelo.desempenho3)
##
## Call:
## lm(formula = testscr ~ str + el_pct + expn_stu, data = eua.escolas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.340 -10.111 0.293 10.318 43.181
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 649.577947 15.205719 42.719 < 2e-16 ***
## str -0.286399 0.480523 -0.596 0.55149
## el_pct -0.656023 0.039106 -16.776 < 2e-16 ***
## expn_stu 0.003868 0.001412 2.739 0.00643 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 14.35 on 416 degrees of freedom
## Multiple R-squared: 0.4366, Adjusted R-squared: 0.4325
## F-statistic: 107.5 on 3 and 416 DF, p-value: < 2.2e-16
Vemos que, mantendo constantes a porcentagem de alunos com inglês como segunda lingua e os gastos por aluno, o coeficiente beta1 passou de -1.10 para -0.29, ou seja, para cada 1 unidade que aumentamos a tamanho da turma, o desempenho cai em 0.29 pontos. Porém, o teste estatístico que testa a H0 de que o coeficiente é igual a zero resultou em um p-valor de 0.55. Portanto, não podemos rejeitar a H0.
Além disso, vemos que o modelo passou a explicar 44% com essa variável (sem ela, explicava 43%).
Sendo assim, essa análise indica que a variável “gasto por estudante”não contribui tanto para explicar o desempenho do aluno,podendo ser descartada.